home *** CD-ROM | disk | FTP | other *** search
/ Cream of the Crop 1 / Cream of the Crop 1.iso / UTILITY / MIR105.ARJ / MIR_ASC.EXE / lha / 04HOW.ASC < prev    next >
Text File  |  1992-04-25  |  14KB  |  274 lines

  1.  
  2.  
  3.         +++++++++++++++++++++++++++++++++++++++++++++++
  4.  
  5.             4.    HOW THE MIR PROJECT WORKS FOR YOU
  6.  
  7.         +++++++++++++++++++++++++++++++++++++++++++++++
  8.  
  9.  
  10.         +++++++++++++++++++++++++++
  11. 4.1           "Free" software
  12.         +++++++++++++++++++++++++++
  13.  
  14.             In the MIR project we are using the "copyleft" strategy
  15. of the Free Software Foundation.  The Foundation's GNU General
  16. Public License is included as Topic Five; it applies to all
  17. software created as part of the MIR project.  This software has
  18. been created specifically for this purpose by Marpex Inc. since
  19. March 1991.
  20.  
  21.             The Free Software Foundation
  22.  
  23.                 "is dedicated to eliminating restrictions on
  24.                 copying, redistribution, understanding, and
  25.                 modification of computer programs.  [They] do this
  26.                 by promoting the development and use of free
  27.                 software in all areas of computer use... 'Free'
  28.                 pertains to freedom, not to price...  You have two
  29.                 specific freedoms once you have the software: 
  30.                 first, the freedom to copy the program and give it
  31.                 away to your friends and co-workers; and second,
  32.                 the freedom to change the program as you wish, by
  33.                 having full access to source code.  Furthermore,
  34.                 you can study the source and learn how such
  35.                 programs are written.  You may then be able to
  36.                 port it, improve it, and share your changes with
  37.                 others."
  38.  
  39.             What is copyleft?
  40.  
  41.                 "The simplest way to make a program free is to put
  42.                 it in the public domain, uncopyrighted.  But this
  43.                 allows anyone to copyright and restrict its use
  44.                 against the author's wishes, thus denying others
  45.                 the right to access and freely redistribute it. 
  46.                 This completely perverts the original intent.
  47.  
  48.                 "To prevent this, we copyright our software in a
  49.                 novel manner.  Typical software companies use
  50.                 copyrights to take away your freedoms.  We use the
  51.                 copyleft to preserve them.  It is a legal
  52.                 instrument that requires those who pass on the
  53.                 program to include the rights to further
  54.                 redistribute it, and to see and change the code;
  55.                 the code and rights become legally inseparable."
  56.  
  57.             Quotes in the above three paragraphs are from page 3 of
  58. the January 1992 "GNU's Bulletin" semi-annual newsletter of the
  59. Free Software Foundation, 675 Mass Avenue, Cambridge, MA  02139
  60. USA.
  61.  
  62.             The argument for this strategy is set out nicely in an
  63. article "Programs to the People" in the February/March 1991 issue
  64. of the M.I.T. Technology Review.  With permission of the author,
  65. Simson L. Garfinkel, the text of the article is included in a
  66. separate file on the CD-ROM release(s).  The file is named
  67. "TOPEOPLE".
  68.  
  69.  
  70.         ++++++++++++++++++++++++++++++++++
  71. 4.2           Interactive publishing
  72.         ++++++++++++++++++++++++++++++++++
  73.  
  74.             These tutorials are part of the ongoing output of the
  75. MIR project.  MIR is an acronym for Mass Indexing and Retrieval. 
  76. MIR seeks to raise the quality of information search in large
  77. masses of data.  Seed funding was provided by the Canadian
  78. government with the understanding that the underlying indexing and
  79. retrieval techniques developed in the project shall be made broadly
  80. available under copyleft rules.  Personnel from two companies are
  81. carrying out the project.
  82.  
  83.             Innotech Inc. of Scarborough, Ontario (416 321-3838)
  84. aims toward excellence in CD-ROM publishing services.  It is
  85. developing interfaces and applications based on MIR technology. 
  86. Innotech offers consulting services as well as service bureau
  87. processing in CD-ROM publishing.
  88.  
  89.             Marpex Inc. is a firm founded in 1976 by the author of
  90. the tutorials and the related software.  Marpex developed the
  91. techniques and pilot programs for the pioneering FindIT CD-ROM
  92. system, and more recently collaborated in the design of the Discis
  93. Knowledge Research CD-ROM books.  Marpex provides consulting in
  94. records management, and seminars related to the techniques in the
  95. MIR tutorials.
  96.  
  97.             MIR tutorials are designed to be an exercise in
  98. co-operative development.  The tutorials are being released in five
  99. parts.  The purchase of any tutorial entitles the buyer to the
  100. source code and DOS executable version of the software related to
  101. the tutorial.  We hope to engage you, the readers and users, in the
  102. project.  We know that co-operative development will lead to
  103. improved end results; many minds are better than one.  Text and
  104. software is modified according to your input... clarifications,
  105. improved methods, more powerful source code, etc.  Each tutorial
  106. will evolve to reflect significant improvements, with your name
  107. attached to the improvements you provide.
  108.  
  109.             After the interactive phase is over, we plan to compile
  110. a reference text based on the tutorials.  This will be accompanied
  111. by a CD-ROM containing all software and support files.  Since ISO
  112. 9660 CD-ROMs are operating system independent, your ported versions
  113. of programs can be included.
  114.  
  115.             Why not release everything at once?  Reasons for
  116. progressive releases are:
  117.  
  118.         >   Scope of the project:  Look at the table of contents. 
  119.             There is simply too much for one tutor to complete in
  120.             a single step.  Extensive new work is continuing to be
  121.             carried out; we are not carrying forward a single line
  122.             of source code from any proprietary system.  Much of
  123.             this work in the past has been on UNIX workstations;
  124.             now we are achieving levels of efficiency that can make
  125.             preparation of large databases feasible on a personal
  126.             computer.
  127.  
  128.         >   Market readiness:  Until the first two tutorials have
  129.             been on the market for a few months, we do not know if
  130.             our target groups are sufficiently interested.  We want
  131.             to know that our work is meeting a genuine need and
  132.             that co-operative development under "copyleft" rules is
  133.             viable.
  134.  
  135.         >   Financing:  The Canadian government provided seed
  136.             funding, that is, enough to get the project off to a
  137.             good start.  We are using the same approach as the Free
  138.             Software Foundation to provide the money required to
  139.             carry the project forward.  Their major financing is
  140.             through distribution of tapes containing their work -
  141.             at roughly $200 for each of several tapes.  We aim to
  142.             carry forward the MIR project through selling paper
  143.             copies of the tutorials at a very attractive price...
  144.             $95 for the first copy, $49 per additional copy in the
  145.             same shipment.  Each purchase is accompanied by a free
  146.             copy of the latest version of the related software.
  147.             People are free to make copies of the source code and
  148.             executable programs.  We trust that buyers will honor
  149.             the copyright of the tutorials.  If you need extra
  150.             copies, please buy them from us.  We appreciate your
  151.             support, enthusiasm and encouragement!
  152.  
  153.  
  154.         +++++++++++++++++++++++++++++++++++++++++
  155. 4.3           Engine-independent techniques
  156.         +++++++++++++++++++++++++++++++++++++++++
  157.  
  158.             The ISO 9660 CD-ROM standard and Microsoft's MS-DOS
  159. extensions opened the way to accessing the files on any conforming
  160. CD-ROM.  But having access to files is not the same as being able
  161. to search conveniently.  Because indexing systems and interfaces
  162. are proprietary, the user has been faced with the nightmare of
  163. having to learn a new retrieval method every time a CD-ROM title is
  164. purchased from a new vendor.  The plea goes up:  "Why can't I use
  165. the same program I've already learned?"
  166.  
  167.             Why not, indeed?
  168.  
  169.             Two ideas have emerged in the literature.  One is full
  170. "interoperability"...  the ability for a person to select her/his
  171. own preferred retrieval interface software and use it to search
  172. within any CD-ROM title on any CD-ROM drive under any operating
  173. system.   That's far off yet.  The second idea, a subset of the
  174. first, is now before a Standards Committee (SCAD) of the
  175. International Standards Organization (ISO) and may show up in
  176. commercial products in 1993.  That is the possibility of separating
  177. the software into a client interface and an underlying server which
  178. fetches data from the CD-ROM.  The server module resides in RAM and
  179. communicates with the client interface through standardized ASCII
  180. strings.  The intention is that the server is specific to the data
  181. and the indexes in place; the client interface is the user's
  182. preference of any retrieval software conforming to the standard.
  183.  
  184.             These engine-independent techniques do away with the
  185. high cost and inconvenience of re-education.  There are perhaps
  186. five contending proposed standards.  The Information Handling
  187. Committee of the Intelligence Community Staff in Washington, D.C.
  188. has commissioned the CD-ROM Read-Only Data Exchange Standard (CD-
  189. RDx).  The aircraft industry appears seriously committed to
  190. Structured Full-Text Query Language (SFQL), an extension of the ISO
  191. approved SQL.  Other contenders are V39.50 (a library system
  192. networking protocol), Silver Platter's DXS, and DFL, an earlier
  193. outgrowth of Standardized Query Language.  Unknowns at this point
  194. include the data structures supported (whether columnar relational
  195. databases and subsets thereof, or whether more generalized forms),
  196. and the actual syntax of messages that pass between the interface
  197. and server modules.
  198.  
  199.             We believe that cooperative development through the MIR
  200. project can contribute to this process.  If software is freely
  201. available under copyleft rules, it can be adapted very readily as
  202. standards evolve.  No-one has to hold back until the Standards
  203. Committee makes its one year or three year or five year report.
  204.  
  205.             We also believe that it is unnecessary to limit the
  206. discussion to CD-ROM.  The basic problem (frustration at being
  207. forced to learn new interfaces) is independent of the medium on
  208. which the data are stored.  MIR technology may be applied to data
  209. held on hard disk, floppy diskettes, Write Once Read Many (WORM),
  210. Bernoulli, rewritable laser optical disks, laser cards or whatever
  211. other media can retain data as byte streams.
  212.  
  213.  
  214.         +++++++++++++++++++++++++++++++++
  215. 4.4           The software provided
  216.         +++++++++++++++++++++++++++++++++
  217.  
  218.             Scope:  The source code for data analysis and
  219. preparation, search term selection, and to some extent automated
  220. indexing require little interaction with a user.  The programs in
  221. TUTORIALS ONE through THREE are therefore considered complete.
  222.  
  223.             TUTORIAL FOUR presents an engine (a "data server
  224. module") which may be used with interfaces compatible with engine-
  225. independent techniques.  The number of different interfaces that
  226. might be written is infinite.  Interface source code can be (and is
  227. likely to be) handled in traditional proprietary ways, simply
  228. because of the great variability in features that end users desire. 
  229. You or your firm may write a "client module" interface and keep it
  230. proprietary, provided the data server module is kept separate and
  231. under copyleft rules.  If you care to write a client module under
  232. copyleft rules, and if it works well, we will be glad to pass it
  233. along.
  234.  
  235.             The software provided with TUTORIAL FIVE might be
  236. classed as "discussion starters".  We carry the discussion a fair
  237. distance, but look to readers to pursue their specific interests. 
  238. In an ideal world, that pursuit would take the form of a public
  239. exchange of ideas under copyleft rules.  As Captain Jean-Luc Picard
  240. would say, "Make it so!"
  241.  
  242.             Naming conventions are applied to many of the programs. 
  243. DOS constrains source code names to eight characters plus a ".C"
  244. extension.  Where a six letter name is workable, a single letter
  245. followed by an underscore precedes the name and has one of the
  246. following meanings:
  247.  
  248.                     A_*.C    analyze, report
  249.                     B_*.C    build indexes
  250.                     C_*.C    compress / integerize data
  251.                     E_*.C    expand content of a file
  252.                     F_*.C    filter out parts of a file
  253.                     I_*.C    invert token matrix
  254.                     J_*.C    join words into useful phrases
  255.                     M_*.C    merge files
  256.                     P_*.C    pre-process particular layouts
  257.                     Q_*.C    quality assurance
  258.                     R_*.C    rotate content within a line
  259.                     S_*.C    server module for retrieval
  260.                     T_*.C    transliterate language to ASCII
  261.  
  262.             Support files include LICENSE.WP and LICENSE.ASC. 
  263. These WordPerfect 5.1 and ASCII versions of the Free Software
  264. Foundation's GNU General Public License govern permissions for
  265. software supplied with the tutorials.  You will find an ORDER form,
  266. again in WordPerfect and ASCII versions.  CD-ROM release(s) contain
  267. extra worked examples, and articles such as TOPEOPLE.
  268.  
  269.             We recommend you place executable copies of all
  270. programs in one area on your hard disk.  That way, you can create
  271. easy access to the programs with only one small addition to your
  272. DOS path (something of the form "\C:\BIN;" added to the PATH line
  273. in your AUTOEXEC.BAT file).
  274.